Capitolul 2 RETELE NEURONALE ARTIFICIALE 2 1 Consideratii generale Retelele Neuronale Artificiale (RNA) sunt sisteme dinamice de prelucrare a informatiei, formate dintr-un numar mare de neuroni (elemente de prelucrare elementara) puternic interconectati Desi preocuparile privind studiul retelelor neuronale dateaza din anii 1940, interesul pentru acestea cunoaste o adevarata explozie începând cu anii 1980 Dintre cele mai importante caracteristici ale RNA se mentioneaza: * Prelucrarea paralela care permite construirea unor arhitecturi deosebit de performante capabile sa ofere raspunsuri rapide, în timp real; * Învatarea din exemple a fenomenului pentru care se antreneaza Procesul de învatare poate fi supervizat sau nesupervizat; * Permit modelarea unor procese complexe ale caror legi de functionare sunt fie prea complicate, fie nu pot fi algoritmizate Prin urmare, procesul analizat nu trebuie descris prin reguli clare * Capacitatea de a asocia datele de intrare cu setul sau seturile de date de antrenare cu care "rezoneaza" cel mai bine Aceasta caracteristica asigura un comportament bun chiar în conditiile unor seturi de date de intrare incomplete sau partial gresite * Memorarea distribuita a informatiei ceea ce asigura o functionarea relativ corecta si în situatia în care anumiti neuroni se "defecteaza" Fiecare neuron participa la formarea iesirilor pentru toate seturile de vectori de intrare/antrenare Deteriorarea unui anumit neuron înrautateste doar într-o mica masura functionarea globala, datorita aportului distribuit, dat de toti ceilalti neuroni valizi (desigur numarul de neuroni trebuie sa fie suficient de mare) Acest mecanism al memorarii distribuite a informatiei este cel care explica si functionarea corecta de durata a creierului uman, în care celulele nervoase ce mor nu afecteaza functia de gândire în general si totodata nu afecteaza nici notiunile memorate Pornind de la o multime reprezentativa de exemple de instruire, o RNA construieste singura algoritmul pentru rezolvarea unei probleme Astfel, într-o prima etapa, numita etapa de antrenare, ea extrage informatia prezentata în multimea de exemple, numita multime de antrenare, si o memoreaza în ponderile conexiunilor dintre neuroni În faza de lucru reteaua va folosi informatia achizitionata în etapa de antrenare pentru a trata situatii de aceeasi natura cu cele continute în multimea de antrenare Capacitatea RNA de a rezolva probleme practice complexe utilizând o multime (uneori restrânsa) de exemple, confera un potential de aplicabilitate extrem de larg Spectrul aplicatiilor cuprinde: * sisteme informatice de recunoastere a caracterelor, utilizate în trierea corespondentei; * sisteme informatice de recunoastere a semnaturilor, folosite în sistemul bancar; * sistemele informatice de recunoastere a vorbirii, utilizate în traficul aerian; * piloti automati; * sisteme în timp real pentru controlul unor procese complexe Calculul neuronal reprezinta actualmente un domeniu de cercetare fascinant si o provocare intelectuala si tehnologica majora RNA au modificat imaginea noastra asupra proceselor de calcul si aspectelor algoritmice ale inteligentei artificiale si au furnizat psihologiei un model al proceselor mentale 2 2 Analogia dintre structura sistemului nervos si retelele neuronale artificiale RNA preiau caracteristicile de baza ale structurii sistemului nervos uman alcatuit, în medie, din 1010 1011 celule nervoase (fig 2 1), numite neuroni, strâns interconectate, care sunt dispuse pe mai multe straturi sau niveluri Fig 2 1 Structura celulei nervoase Celula nervoasa este constituita din: * mai multe dendrite ramificate prin care receptioneaza diferite informatii de la alti neuroni; acestea constituie intrarile în celula nervoasa * corpul celulei sau nucleul care realizeaza o prelucrare a stimulilor1 generati de informatiile primite si elaboreaza raspunsul; * un axon - o fibra unica care transmite raspunsul elaborat catre alte celule; * sinapse - ramificatii ale axonului care realizeaza legaturi cu alti neuroni (axonul unei celule umane realizeaza în medie 103 legaturi sinaptice cu alti neuroni) Impulsurile prezente la intrarea neuronului îl pot excita cea ce face ca acesta sa genereze un impuls ce se transmite mai departe spre neuronii cu care este conectat Legaturile dintre neuroni sunt ponderate, iar fiecare neuron aplica o transformare asupra impulsului generat înainte de a-l transmite mai departe 2 3 Modele ale neuronului artificial 2 3 1 Neuronul formal Neuronul formal are o structura asemanatoare neuronului uman El este o unitate elementara de procesare care realizeaza o operatie simpla pe un set de marimi de intrare, reprezentate prin vectorul , pentru a produce o marime de iesire Intrarile unui neuron artificial oarecare j sunt alcatuite din semnalele venite de la alti neuroni sau din mediul înconjurator si sunt reprezentate, în general, prin numere reale Fiecare intrare are asociata o valoare reala , numita pondere sinaptica, care are rolul de a pondera semnalul de intrare Daca atunci ponderea este excitatoare, iar daca atunci ponderea este inhibitoare Vectorul ponderilorreprezinta "memoria" neuronului, iar corpul acestuia este constituit dintr-un sumator, un prag de activare si o functie de activare (fig 2 2) Fig 2 2 Structura neuronului formal Starea neuronului se actualizeaza periodic dupa urmatorul mecanism: 1 se determina potentialul neuronal , denumit si starea interna sau activarea totala, ca fiind suma ponderata a intrarilor , adica (2 1) 2 se compara potentialul neuronal cu pragul de activare al neuronului , adica se calculeaza diferenta: (2 2) 3 asupra expresiei (2 2) se aplica o functie de activare rezultând valoarea iesirii neuronului respectiv: (2 3) Daca se considera , atunci În general, pragul de activare este nenul si poate fi încorporat în vectorul ponderilor considerând o intrare suplimentara careia i se asociaza ponderea Functiile de activare pot fi liniare sau neliniare (fig 2 3) Identitate Treapta Rampa Sigmoid Fig 2 3 Tipuri de functii de transfer * Functia de activare liniara este de forma (2 4,a) Daca si se obtine functia de activare identitate (fig 2 3, a) * Functia de activare treapta (fig 2 3, b) (2 4,b) * Functia de activare rampa (fig 2 3, c), constituie o combinatie între functiile liniara si treapta (2 4,c) În principiu, functia rampa stabileste limitele maxima si minima pentru iesirea neuronului, asigurând o variatie liniara între acestea pe intervalul * Functia de activare sigmoid corespunde unor forme netezite ale functiei rampa Functiile sigmoid, denumite astfel dupa forma în S a reprezentarii lor grafice, sunt functii continue, derivabile si monotone pe întreg intervalul de definitie Aceste proprietati sunt esentiale daca se doreste aplicarea unor algoritme de învatare performante si eficiente Cele mai raspândite functii sigmoid sunt: * sigmoidul logistic (fig 2 3, d), numit si sigmoid unipolar, care ia valori în intervalul (0, 1); (2 4,d) * sigmoidul tangent hiperbolic (fig 2 3, e), numit si sigmoid bipolar, care ia valori în intervalul (-1, 1) (2 4,e) În concluzie, functionarea unui neuron j, vazut ca element de procesare în intervale discrete de timp, este descrisa de relatiile: (2 5) unde: este vectorul de intrare; - pragul corespunzator neuronului; - functia de activare (treapta, sigmoid etc ) Modelul McCulloch-Pitts (MCP), reprezinta primul model formal al neuronului si a fost propus de catre W McCulloch si S Pitts în anul 1943 În cadrul acestui model, atât intrarile, cât si iesirea sunt de tip binar, iar functia de activare este functia treapta Prin urmare, functionarea MCP este descrisa de relatiile: (2 6) Obs Fiind vorba de un singur neuron s-a renuntat la indicele j care-l desemneaza Acest model are meritul istoric ca a pus în evidenta o structura simpla, la care relatia functionala intrare-iesire este codificata sub forma unor valori numerice corespunzând ponderilor La acea data ramânea însa deschisa problema stabilirii unui algoritm de antrenare pentru determinarea valorilor acestor ponderi 2 3 2 Neuronul clasificator sau perceptronul Pornind de la modelul MCP, psihologul Rosenblatt a introdus, în anul 1958, notiunea de perceptron sau neuron clasificator Perceptronul este asemanator neuronului MCP (fig 2 4) si a fost dezvoltat din dorinta de a modela functia de perceptie vizuala a retinei Fig 2 4 Modelul perceptronului Ecuatiile de functionare ale perceptronului sunt ecuatiile (2 6) ale modelului MCP Deosebirea provine din faptul ca de aceasta data intrarile sunt valori reale si nu valori binare de tipul 1 sau 0 Functia de activare este tot de tipul treapta si, prin urmare, iesirea este binara Evolutia perceptronului este descrisa de: (2 7) în care: este vectorul de intrare extins care include si intrarea aferenta pragului: - vectorul ponderilor extins care include si pragul T Ecuatia (2 8) este ecuatia unui hiperplan care împarte spatiul vectorilor (punctelor) de intrare în doua regiuni de decizie Astfel, vectorii aflati în partea pozitiva caracterizati de (2 9) apartin clasei A, iar vectorii situati în partea negativa caracterizati de (2 10) apartin clasei B Pentru a dezvolta modelul matematic si algoritmul de instruire/antrenare, se efectueaza o normalizare de semn a vectorilor de intrare notând: (2 11) În aceste conditii, hiperplanul corespunzator ecuatiei (2 8) separa clasele A si B daca si numai daca exista inegalitatea: (2 12) Definitie: Daca pentru doua clase de obiecte reprezentate prin vectori din spatiul exista un hiperplan de separare, atunci cele doua clase se numesc liniar separabile De exemplu, pentru n=2 ecuatia defineste o dreapta în planul care-l împarte în doua regiuni de decizia A si B (fig 2 5) Fig 2 5 Separarea planului în zone de decizie Problema care se pune consta în gasirea unui algoritm de învatare care sa determine vectorul ponderilor astfel încât frontiera sa ajunga sa separe corect elementele celor doua clase Cu alte cuvinte, iesirea neuronului sa fie y =1 sau y =0, dupa cum intrarea apartine clasei A sau clasei B Raspunsul la aceasta problema a fost dat, într-o prima etapa, de catre Rosenblatt Algoritmul propus de acesta, cunoscut sub denumirea de algoritmul standard de antrenare a perceptronuli, modifica valorile ponderilor ori de câte ori la intrarea retelei este prezentata o configuratie (forma sau pattern) incorect clasificata Procedura de instruire este o metoda iterativa de învatare supervizata care are ca obiectiv minimizarea distantelor punctelor eronat clasificate fata de hiperplanul de separare Se considera ca multimea de antrenare, numita si multimea de exemple, este constituita din m perechi de forma : în care dk este raspunsul corect, adica: Notam cu multimea vectorilor (punctelor) din setul de antrenare clasificati eronat de catre vectorul pondere W curent, adica: (2 13) Daca , atunci eroarea de clasificare este data de distanta punctului corespunzator vectorului , la hiperplanul de decizie H definit de ecuatia: (2 14) adica (2 15) Observatii: 1 Se reaminteste faptul ca ecuatia unui hiperplan oarecare H, care trece prin punctul si este perpendicular pe vectorul U este: (2 16) 2 În ipoteza ca , distanta de la punctul corespunzator unui vector oarecare la hiperplanul H este data de: (2 17) Comparând relatia (2 14) cu (2 16) rezulta ca hiperplanul de separare H trece prin origine si este perpendicular pe vectorul ponderilor Prin urmare, în ipoteza ca , eroarea de clasificare, definita de relatia (2 15), este: (2 18) În stabilirea formei finale a relatiei (2 18) s-a tinut seama de faptul ca , adica În concluzie, scopul algoritmului de antrenare este de a determina vectorul ponderilor W pentru care suma: (2 19) este minima Deoarece , rezulta ca: iar pentru determinarea minimului se foloseste o metoda de gradient Astfel, pornind de la o estimare initiala a vectorului ponderilor se genereaza un sir de vectori folosind relatia de recurenta: (2 20) în care (2 21) sunt corectiile la pasul t În relatia (2 21), specifica metodelor de gradient, este o valoare pozitiva, numita rata sau viteza de învatare, care reprezinta marimea deplasarii fata de în directia data de În cazul unei probleme de minimizare, directia de deplasare este directia de coborâre, adica directia contrara gradientului Prin urmare: (2 22) Având în vedere ca si tinând cont de regula de derivare a produsului scalar , rezulta ca: (2 23) în care este multimea vectorilor/punctelor clasificate eronat de catre vectorul curent al ponderilor În concluzie, corectiile ponderilor sunt direct proportionale cu vectorii clasificati eronat Pentru a simplifica algoritmul, la fiecare pas se considera toate exemplele din multimea de antrenare si se modifica ponderile doar în cazul exemplelor clasificate eronat conform urmatoarelor regului: (i) daca pentru un exemplu perceptronul se activeaza când ar trebui sa ramâna inactiv, adica daca si , atunci se reduc ponderile cu o valoare proportionala cu ; (ii) daca pentru un exemplu perceptronul nu se activeaza desi ar trebui sa o faca, adica daca si , atunci se cresc ponderile cu o valoare proportionala cu Sintetizând cele doua reguli rezulta urmatoarea expresie generala pentru corectia ponderilor: (2 24) iar relatia (2 20) devine (2 25) adica: (2 26) respectiv (2 27) Observatii: 1 Daca , adica exemplul a fost clasificat corect, atunci conform relatiei (2 24) ponderile nu se modifica 2 În teoria dezvoltata si, în conformitate cu relatia (2 27) pragul se modifica adaugând sau scazând pe la valoarea anterioara În unele variante ale algoritmului corectia pragului se face cu o cantitate proportionala cu valoarea lui, în sensul stabilit de regulile anterioare, adica: (2 28) 3 Viteza de învatare O valoare prea mare a lui poate conduce la omiterea unui vector de ponderi corect, în timp ce o valoare prea mica poate mari excesiv timpul de calcul 4 Ciclul de operatii care vizeaza parcurgerea tuturor exemplelor în vederea modificarii ponderilor poarta numele de epoca 5 În cazul în care multimea de antrenare este constituita dintr-un numar de exemple liniar separabile, algoritmul de antrenare al perceptronului este convergent într-un anumit numar de epoci, adica va identifica un vector al ponderilor care clasifica corect toate exemplele Algoritmul de antrenare al perceptronului Pasul 1: Initializeaza ponderile () si valoarea pragului de activare la momentul cu valori aleatoare mici, de obicei în intervalul [-0,1; 0,1] Pasul 2: Selecteaza valoarea vitezei de învatare Pasul 3: Testeaza convergenta DACA toate exemplele au fost clasificate corect, adica , respectiv Contor Eroare=0 ATUNCI Stop ALTFEL Seteaza Contor Eroare=0 si trece la pasul 4 Pasul 4: Pentru fiecare exemplu repeta 4 1 Calculeaza iesirea reala generata de perceptron 4 2 Compara cu DACA ATUNCI Incrementeaza Contor Eroare si modifica ponderile, respectiv pragul conform relatiilor: Pasul 5: Repeta de la pasul 3 Exemplu Se considera perceptronul cu trei intrari si setul de 5 exemple prezentate în figura 2 6 Pentru acest perceptron se aleg aleator valorile initiale ale ponderilor: ;; , valoarea de prag si valoarea vitezei de învatare Fig 2 6 Exemplu de perceptron si multimea de antrenare Pentru exemplul 1 iesirea perceptronului se determina astfel: Deoarece iesirea furnizata de perceptron , este diferita de cea dorita , exemplul este clasificat gresit, iar ponderile vor fi modificate conform relatiilor: Pentru exemplul 2 iesirea perceptronului este: Deoarece aceasta este diferita de cea dorita , exemplul este clasificat gresit si, prin urmare, ponderile vor fi modificate rezultând: În mod similar, pentru exemplul 3 iesirea perceptronului este: Deoarece aceasta este diferita iesirea dorita , exemplul este clasificat gresit, iar ponderile vor fi modificate astfel: Pentru exemplul 4, iesirea perceptronului este: Deoarece aceasta este identica cu cea dorita , exemplul este clasificat corect, iar ponderile nu se modifica Prin urmare: Pentru exemplul 5,iesirea perceptronului rezulta: Întrucât aceasta este identica cu cea dorita , exemplul este clasificat corect, iar ponderile nu se modifica Prin urmare: În acest stadiu s-a încheiat o epoca dar, pentru ca nu toate exemplele au fost clasificate corect, se reia procesul de modificare al ponderilor, adica se efectueaza un nou ciclu Procesul se repeta pâna când toate exemple sunt clasificate corect * Limitele perceptronului În numeroase probleme concrete de clasificare intervin clase de obiecte care nu sunt liniar separabile Prin urmare, utilizarea perceptronului ca atare este sever limitata O analiza a limitarilor perceptronului a fost efectuata de cercetatorii Minsky si Papert în 1969 Ei furnizeaza celebrul exemplu care evidentiaza limitarile perceptronului si anume problema învatarii tabelei de adevar a functiei logice XOR (tabelul 1) Tabelul 1 Functia logica XOR Considerând un perceptron cu doua intrari (fig 2 7) si functia de activare standard (2 28) algoritmul de antrenare nu va putea determina valorile , si T astfel încât iesirea perceptronului sa furnizeze valorile functiei XOR Fig 2 7 Structura perceptronului cu doua intrari Într-adevar, reprezentând în plan cele patru puncte corespunzatoare celor patru vectori de intrare posibili ai perceptronului se observa ca nu exista nici o dreapta având ecuatia: (2 29) care sa separe cele doua clase de obiecte (cele a caror iesire este 1, respectiv cele care au iesirea 0) Pentru a putea sa rezolve problema, reteaua neuronala artificiala ar trebui sa realizeze separarea planului în trei regiuni de decizie (fig 2 8) Fig 2 8 Separarea planului în regiuni de decizie multipla O astfel de partitionare poate fi realizata folosind o retea cu mai multe straturi denumita perceptronul multistrat sau multi layer perceptron - MLP în terminologia englezeasca 2 4 Structuri ale RNA 2 4 1 Structura generala si clasificari ale RNA Cele prezentate în paragraful precedent evidentiaza faptul ca limitele perceptronului nu sunt datorate algoritmului de instruire, ci structurii foarte simple a acestuia, care asigura doar împartirea spatiului intrarilor în doua semiplane Prin urmare, utilizarea RNA în rezolvarea problemelor reale necesita cresterea complexitatii topologiei acestora În general RNA sunt formate din neuroni (structuri elementare de procesare) legati prin conexiuni sinaptice (caile de transmitere a informatiei între neuroni caracterizate de anumite ponderi) organizati pe straturi succesive În figura 2 9 este prezentata structura tipica a unei RNA cu patru straturi Fig 2 9 Arhitectura tipica a unei RNA Primul strat, numit stratul de intrare, este format din neuroni liniari care nu realizeaza nici un proces de calcul Rolul lui este acela de a dirija componentele ale vectorului de intrare X catre neuronii de calcul din primul strat Ultimul strat de prelucrare este stratul de iesire si poate fi constituit din unul sau mai multi neuroni În general, topologia unei retele neuronale poate cuprinde unul sau mai mute straturi intermediare, numite si straturi ascunse Legaturile dintre straturile RNA se realizeaza prin conexiuni sinaptice ponderate În cazul structurii prezentata în fig 2 9 fiecare neuron dintr-un strat este legat cu toti neuronii din stratul urmator si exista legaturi doar între straturile consecutive O astfel de structura se numeste complet conectata si corespunde clasei de RNA numita MLP (Multi Layer Perceptron), adica perceptronul multistrat Structura RNA este descrisa complet de matricele ponderilor conexiunilor dintre doua straturi consecutive, ale caror elemente indica influenta pe care iesirea neuronului i din stratul inferior o are asupra activarii neuronului j din stratul urmator Ca si in cazul perceptronului clasic, ponderile pozitive au caracter excitatoriu, ponderile negative au caracter inhibitoriu, iar ponderile nule indica absenta conexiunii între cei doi neuroni Evident, cu cât valoarea absoluta a ponderii este mai mare, cu atât influenta neuronului i asupra neuronului j este mai pregnanta Ansamblul ponderilor constituie memoria RNA, adica parametrii ce caracterizeaza, într-o maniera absoluta, procesul modelat de reteaua neuronala artificiala Prin urmare, antrenarea retelei necesita o strategie de ajustare a ponderilor, respectiv un algoritm de antrenare sau învatare în cadrul caruia se prezinta retelei neuronale un numar de exemple formate din perechi (intrare - iesire dorita), ale caror atribute sunt cunoscute si reprezentative pentru procesul modelat Acestea formeaza multimea de antrenare Structura prezentata în figura 2 9, prezinta urmatoarele proprietati, specifice unei largi categorii de retele neuronale: (i) fiecare neuron actioneaza independent de ceilalti neuroni din acelasi strat (iesirea neuronului depinde numai de semnalele ce se aplica pe conexiunile sale sinaptice de intrare); (ii) activarea fiecarui neuron depinde numai de informatii cu caracter local (informatia prelucrata de neuron provine numai de pe conexiunile adiacente, nefiind necesara cunoasterea starilor neuronilor care nu au legaturi directe cu neuronul considerat); (iii) numarul mare de conexiuni existente asigura un grad ridicat de rezervare si usureaza reprezentarea distribuita a informatiei Primele doua proprietati permit functionarea eficienta a RNA în paralel, iar ultima proprietate le confera o sensibilitate redusa fata de posibilele perturbatii, respectiv calitati de generalizare greu de obtinut cu sistemele clasice de calcul Clasificarea retelelor neuronale poate fi facuta pe baza mai multor criterii care tin cont de tipul parametrilor de intrare, modul de învatare, existenta legaturilor de reactie inversa, numarul de straturi etc A Clasificarea RNA în functie de tipul parametrilor de intrare În functie de tipul parametrilor de intrare retelele neuronale sunt: * retele cu intrari binare; * retele cu intrari reale; în acest caz, valorile parametrilor de intrare trebuie mapate (scalate) în domeniul [-1, 1] B Clasificarea retelelor neuronale pe baza modului de învatare Legea de învatare a unei RNA este o relatie care specifica modul în care se modifica toate sau numai o parte din ponderile unui neuron ca raspuns la semnalele de intrare si valorile furnizate de functia de activare/transfer Aceasta relatie permite retelei sa învete, adica sa se adapteze la exemplele furnizate, organizându-si informatia privind topologia si ponderile care se modifica în mod dinamic pe parcursul procesului de învatare În functie de modul de învatare se disting doua tipuri de retele neuronale: * retele neuronale artificiale cu învatare supervizata; * retele neuronale artificiale cu învatare nesupervizata În cazul instruirii supervizate reteaua primeste atât datele (vectorii) de intrare dintr-un set sau multime de instruire, cât si datele de iesire corespunzatoare (raspunsuri corecte sau raspunsuri dorite) Dupa fiecare exemplu, reteaua compara propria-i iesire cu raspunsurile corecte, corecteaza diferentele si încearca din nou, procedând în mod iterativ pâna când eroarea raspunsului de iesire ajunge sub nivelul impus Metoda de antrenare supervizata mai poarta denumirea de învatare neadaptiva În cazul instruirii nesupervizate, reteaua dispune de datele de intrare, dar nu mai primeste nici o informatie privind iesirea corecta În schimb, dupa fiecare încercare i se da o nota - un scor de performanta - care cuantifica corectitudinea rezultatului Reteaua se organizeaza numai în functie de intrare, deci se autoorganizeaza, grupând setul de vectori de antrenare în zone (clustere) pe baza unui concept de similitudine Din aceasta cauza, instruirea nesupervizata mai poarta denumirea de autoorganizare sau învatare adaptiva Se mentioneaza faptul ca învatarea nesupervizata este calitativ superioara învatarii supervizate Pe baza celor doua criterii mentionate - tipul parametrilor de intrare si modul de învatare se poate realiza clasificarea prezentata în figura 2 10 în care se evidentiaza sase dintre modelele RNA mai des întâlnite Fig 2 10 Clasificarea RNA Retelele cu învatare supervizata, cum ar fi reteaua Hopfield si perceptronii sunt utilizate mai ales ca memorii asociative sau ca structuri de clasificare Retelele cu învatare nesupervizata, cum ar fi hartile cu auto-organizare Kohonen, sunt folosite mai ales pentru formarea configuratiilor de memorii asociative Aceasta clasificare este departe de a indica toate modelele neuronale existente, clasificarea facându-se si pe baza altor criterii C Clasificarea RNA pe baza legaturilor de reactie inversa Un al treilea criteriu de clasificare se refera la existenta sau absenta legaturilor de reactie inversa între neuronii din diversele straturi ale retelei Astfel, se disting patru tipuri de RNA: * RNA nebuclate (retele feedforward) În asemenea retele informatia circula într-un singur sens, de la intrare catre iesire La un moment dat, starea unui neuron depinde numai de starea din acelasi moment a neuronilor de la care primeste semnale (fig 2 11, a) RNA nebuclate sunt structuri statice, folosite cu precadere pentru rezolvarea unor probleme de clasificare sau de identificare a proceselor statice Din aceasta categorie fac parte retelele de tipul perceptron multistrat, a carei arhitectura a fost prezentata anterior Fig 2 11 Clasificarea retelelor neuronale pe baza existentei/inexistentei reactiei inverse: a - RNA nebuclate (feedforward); b - RNA buclate (feedback) * RNA buclate (retele feedback) sunt acele retele ale caror grafuri de conexiuni contin cicluri; circulatia informatiei are loc de aceasta data în ambele sensuri (intrare-iesire, respectiv iesire-intrare), astfel încât starea neuronilor la un moment dat este determinata de starea curenta si de starea la momentul anterior (fig 2 11, b) Prin urmare, RNA buclate au proprietatile unor sisteme dinamice; ele sunt utilizate ca memorii asociative si pentru identificarea sau controlul sistemelor dinamice Un exemplu de retea buclata îl constituie retelele Hopfield * RNA de tip mixt este o retea ce foloseste atât legaturi feedforward cât si legaturi feedback O retea hibrida, care foloseste atât legaturi feedforward cât si legaturi feedback este reteaua Hamming * RNA de tip celular (plasa) constau din neuroni artificiali numiti celule, organizati într-o plasa bidimensionala, neuroni care comunica direct doar cu alti neuroni aflati în imediata vecinatate a lor Neuronii neconectati se pot influenta unul pe celalalt indirect din cauza propagarii semnalelor în timpul procesului de antrenare Un exemplu de astfel de retea este reteaua Kohonen D Clasificarea RNA pe baza numarului de straturi ascunse Un alt criteriu de clasificare a RNA are în vedere numarul de neuroni din retea Din acest punct de vedere se disting: * RNA cu un singur strat În acest caz stratul unic joaca rol dublu intrare-iesire Totodata, absenta altor straturi impune ca aceste RNA sa aiba o topologie buclata În aceasta categorie se înscriu retelele Hopfield, precum si variante ale acestora, care se deosebesc în functie de modul de conectare a neuronilor Retele cu un singur strat sunt folosite pentru completarea modelelor, filtrarea unor semnale sau rezolvarea unor probleme de optimizare; * RNA cu doua straturi În acest caz, primul strat este stratul de intrare, iar al doilea cel de iesire, neexistând un strat ascuns Retelele din aceasta categorie sunt folosite cu precadere ca retele clasificatoare În functie de topologia lor, se disting RNA feedforward (fig 2 12) si RNA hibride feedforward-feedback (fig 2 13) Fig 2 12 RNA cu doua straturi de tip feedforward Fig 2 13 RNA cu doua straturi de tip hibrid * RNA multistrat Retelele din aceasta categorie pot avea, în principiu, un numar nelimitat de straturi Toate straturile, cu exceptia primului si ultimului, sunt straturi ascunse Structura generala a unei asemenea RNA a fost prezentata în figura 2 9 Majoritatea RNA multistrat utilizate în diverse aplicatii practice fac parte din categoria retelelor feedforward (nebuclate), iar raspândirea cea mai mare o are perceptronul multistrat Principalele aplicatii ale acestui tip de retea au în vedere probleme de clasificare precum si de aproximare euristica a unor functii matematice 2 4 2 Perceptronul multistrat MLP Se considera o retea neuronala artificiala de tip MLP cu un singur strat ascuns (fig 2 14) si se fac notatiile: - numarul neuronilor de pe stratul de intrare; - numarul neuronilor de pe stratul ascuns; - numarul neuronilor de pe stratul de iesire; - matricea ponderilor neuronilor de pe stratul ascuns ale carei elemente sunt ponderile conexiunilor sinaptice dintre neuronul j de pe stratul ascuns si neuronul i de pe stratul de intrare; - matricea ponderilor neuronilor de pe stratul de iesire ale carei elemente sunt ponderile conexiunilor sinaptice dintre neuronul k de pe stratul de iesire si neuronul j de pe stratul de ascuns; - numarul de exemple, adica numarul de perechi care alcatuiesc multimea de antrenare; - iesirea neuronului k de pe stratul de iesire când la intrare se prezinta exemplul m; - iesirea neuronului j de pe stratul ascuns când la intrare se prezinta exemplul m; Fig 2 14 Retea MLP cu un singur strat ascuns 2 4 2 1 Algoritmul backpropagation - BP Regula delta generalizata Perceptronii multistrat cu mai multe iesiri si functii de transfer sigmoidale se mai numesc si retele backpropagation Denumirea provine de la algoritmul de învatare utilizat de aceste structuri si anume algoritmul backpropagation - BP sau algoritmul de propagare înapoi a erorii, respectiv algoritmul retropropagarii introdus de Rumelhart si membrii grupului "Parallel Distributed Processing" PDP în 1986 Acest algoritm poate depasi limitarile perceptronului enumerate de Minsy si Papert în 1969 si a fost considerat un mare succes care a contribuit la relansarea calculului neuronal în IA Algoritmul BP urmareste minimizarea erorii patratice printr-o metoda de gradient Din acest motiv functiile de activare sau transfer ale neuronilor trebuie sa fie continue si derivabile pe tot domeniul de definitie, cerinte satisfacute de functiile sigmoidale si functia liniara La fel ca si în cazul perceptronilor, generarea unei retele MLP cuprinde doua etape: * etapa de învatare în care, pe baza multimii de antrenare, se sintetizeaza ponderile si valorile pragurilor de activare ale neuronilor; * etapa de testare, în care reteaua este utilizata pentru a clasifica multimi de forme necunoscute, dar similare celor din multimea de antrenare Algoritmul backpropagation de învatare al retelelor MLP consta în urmatorii doi pasi: 1) parcurgerea directa a retelei, de la intrari spre iesiri, în care se determina iesirile generate de retea pentru exemplele din multimea de antrenare; 2) parcurgere înapoi a retelei, de la iesiri spre intrari, în care iesirile calculate se compara cu iesirile dorite pentru fiecare exemplu si se determina eroarea care, printr-un proces de propagare înapoi, este utilizata la actualizarea ponderilor Legea de antrenare sau regula de modificare a ponderilor poarta denumirea regula delta generalizata si este descrisa de urmatoarele trei propozitii: (i) Pentru fiecare exemplu din multimea de antrenare corectia ponderii dintre neuronul j si neuronul i din stratul precedent este proportionala cu un termen de eroare asociat neuronului j, adica: (2 30) în care: este rata de învatare; - iesirea neuronului i din stratul precedent (ii) Daca neuronul j se afla în stratul de iesire (fig 2 15,a) termenul de eroare este proportional cu diferenta dintre valoarea dorita si cea furnizata de reteaua neuronala si se calculeaza cu relatia: (2 31) în care: este diferenta dintre valoarea dorita si cea furnizata de reteaua neuronala pentru exemplul m; - derivata functiei de activare a neuronului j în raport cu potentialul sau neuronal corespunzator exemplului m considerat; (iii) Daca neuronul j se afla în stratul ascuns (fig 2 15,b) fiind legat prin conexiunile sinaptice cu neuronii din stratul de iesire, termenul de eroare este proportional cu suma ponderata a termenilor de eroare asociati neuronilor de iesire si se calculeaza cu relatia: (2 32) în care se determina cu relatia precedenta (2 31) aplicata neuronilor k de pe stratul de iesire a) b) Fig 2 15 Aplicarea regulii delta în functie de pozitia neuronului: a) neuronul se afla pe stratul de iesire b) neuronul se afla pe stratul ascuns Dupa cum se poate observa, erorile , identificate la iesire, sunt transmise înapoi catre intrare pentru a corecta ponderile sinaptice dintre straturile succesive cu valori proportionale cu aceste erori Regulile enuntate se refera numai la ponderile neuronale fara a se specifica nimic despre pragurile ce se pot asocia fiecarui neuron din straturile de prelucrare Aceasta formalizare nu exclude utilizarea pragurilor care pot fi tratate ca ponderi ale conexiunilor cu un neuron din stratul precedent având iesirea -1 2 4 2 2 Antrenarea MLP O retea neuronala de tip MLP poate fi antrenata pentru aproximarea unei functii sau pentru asocierea, respectiv clasificarea formelor de intrare Procesul de antrenare consta în modificarea iterativa a ponderilor si pragurilor neuronilor de pe straturile de prelucrare în scopul minimizarii functiei de performanta a retelei Aceasta poate fi: * Abaterea patratica partiala: (2 33) * Abaterea patratica medie partiala: (2 34) * Abaterea patratica totala: (2 35) * Abaterea patratica medie totala: (2 36) În general functia de performanta utilizata este abaterea patratica medie multiplicata, din considerente de simplificare a expresiilor de calcul, cu factorul Implementarea algoritmului se poate efectua în doua moduri: (i) modul incremental (incremental mode) în care corectiile ponderilor se efectueaza dupa fiecare exemplu, iar functia de performanta este abaterea patratica medie partiala; (ii) modul global (batch mode) în care corectiile ponderilor se efectueaza dupa ce toate exemplele din multimea de antrenare au fost prezentate retelei, adica la sfârsitul unei epoci, iar functia de performanta este abaterea patratica medie totala Determinarea matricelor ponderilor si care asigura minimul functiei de performanta se efectueaza impunând conditiile: (2 37) Acestea conduc la un sistem de ecuatii neliniare care se rezolva iterativ printr-o metoda de gradient 2 4 2 2 1 Metoda gradientului descendent Cea mai simpla metoda de determinare a unui punct de extrem local pentru functia consta în anularea derivatei (2 37) În cazul unei functii neliniare, cu o forma complexa, rezolvarea directa a ecuatiei (2 37) nu este posibila si din acest motiv se recurge la o metoda iterativa Astfel, pentru a determina minimul se porneste de la o aproximatie initiala si se genereaza un sir de aproximatii succesive folosind relatia de recurenta: (2 38) care defineste asa numita metoda a gradientului descendent În aceasta relatie este un parametru pozitiv utilizat pentru a amplifica sau atenua deplasarea în lungul directiei În cazul unor valori mari punctul de minim poate fi depasit, iar în cazul unor valori prea mici apropierea de punctul de minim cautat poate deveni prea lenta În cazul algoritmului backpropagation pentru care functia de performanta, al carei minim este cautat, depinde de mai multe variabile (ponderile conexiunilor sinaptice si ) relatia de recurenta (2 38) se aduce la forma vectoriala înlocuind derivata cu gradientul Rezulta, astfel, urmatoarele relatii, specifice metodei gradientului descendent, pentru determinarea ponderilor conexiunilor sinaptice ale neuronilor de pe stratul ascuns: (2 39,a) respectiv ale celor de pe stratul de iesire: (2 39,b) în care este viteza de învatare 2 4 2 2 2 Metoda Newton de ordinul II În metoda gradientului descendent procesul de cautare a punctului de minim al functiei de performanta a retelei MLP consta în deplasarea dupa directia antigradientului pe o lungime proportionala cu rata de învatare a carei valoare este selectata în mod arbitrar de catre utilizator O convergenta mai rapida a procesului iterativ de calcul catre punctul de minim cautat este posibila atunci când se cunosc detalii suplimentare privind functia , detalii care sa permita estimarea unei valori optime pentru viteza de învatare Fiind cunoscuta o estimare oarecare a punctului de extrem cautat se pune problema determinarii corectiei astfel încât sa constituie solutia problemei, adica : (2 40) În acest sens, se dezvolta în serie Taylor în jurul punctului si se retin termenii pâna la ordinul I Rezulta: (2 42) Aplicând acestei expresii operatorul de derivare si admitând ca noua aproximare este solutia cautata se obtine: (2 43) din care rezulta relatia de recurenta: (2 44) Comparând relatia (2 44) cu relatia (2 38) din metoda gradientului descendent rezulta ca reprezinta o estimare a vitezei de învatare în punctul În cazul unei functii de mai multe variabile , relatia (2 44) capata forma vectoriala: (2 45) în care: ; este matricea hesian, iar gradientul functiei în punctul Adaptarea metodei Newton de ordinul II la antrenarea retelelor MLP conduce la urmatoarele relatii de recurenta pentru modificarea ponderilor: (2 46,a) (2 46,b) Utilizarea relatiilor (2 46) în cadrul procesului de antrenare a unei retele neuronale de tip MLP, impune vectorizarea matricelor si , adica transformarea acestora în vectori de forma: respectiv Dupa cum se poate observa adaptarea ponderilor se realizeaza folosind viteze de învatare distincte pentru fiecare pondere, care, în plus, se modifica de la o iteratie la alta 2 4 2 2 3 Metoda gradientului conjugat Metodele de gradient conjugat utilizate în problemele de determinare a unui punct de extrem al unei functii de mai multe variabile , pornesc de la o aproximatie initiala si determina un sir de aproximatii succesive prin deplasarea în n pasi dupa n directii H conjugate Dupa cum este cunoscut, doi vectori care satisfac relatia (2 47) se numesc canonic conjugati Relatia (2 47) se poate scrie si sub forma: (2 48) în care este matricea unitate de ordinul n Generalizând, daca pentru o matrice oarecare H de ordinul n, vectorii satisfac relatia (2 49) atunci acestia se numesc H conjugati Pentru a determina minimul functiei folosind metoda gradientului conjugat, se porneste din punctul initial si se alege deplasarea în sensul antigradientului Pentru simplificarea expunerii deplasarea se va nota cu Y Prin urmare, În continuare procesul de cautare se desfasoara în n pasi, dupa n directii H conjugate,conform relatiei: (2 50) în care: este o aproximatie intermediara, iar un scalar care se determina astfel încât vectorii si sa fie H conjugati, adica: (2 51) Având în vedere relatia (2 50) relatia (2 51) devine: (2 52) din care rezulta: (2 53) Pentru a utiliza metoda gradientului conjugat la antrenarea retelelor neuronale de tip MPL functia f este înlocuita cu functia de performanta, iar vectorul X cu vectorul U format prin vectorizarea simultana a matricelor ponderilor sinaptice W si V, adica: Implementarea acestei metode implica rezolvarea urmatoarelor doua probleme suplimentare: 1 Selectarea vitezei de învatare O metoda de determinare a unei valori pentru rata de învatare consta în aproximarea variatiei functiei de performanta în raport cu printr-un polinom de gradul II, adica: (2 54) din care, prin anularea derivatei, rezulta valoarea optima (2 55) În cadrul fiecarui pas de calcul, coeficientii A, B si C se determina evaluând functia de performanta în trei puncte distincte, astfel: * pentru rezulta , respectiv (2 56,a) * pentru rezulta , respectiv (2 56,b) * pentru rezulta , respectiv (2 56,c) Rezolvând sistemul de ecuatii format din relatiile (2 56,a,b,c) se obtin coeficientii A, B si C, iar din relatia (2 55) valoarea vitezei de învatare 2 Selectarea matricei H pentru calculul factorului Matricea H din expresia (2 53) a factorului ar putea fi Hessianul functiei de performanta E Totusi, pentru reducerea timpului de calcul se evita calculul matricei Hessian În acest sesns, dezvoltând în serie Taylor gradientul si adoptând o serie de ipoteze simplificatoare se poate demonstra ca: (2 57) Înlocuind relatia (2 57) în (2 53) rezulta: (2 58) 2 4 3 Retele neuronale artificiale Kohonen Retelele neuronale Kohonen numite harti de trasaturi cu auto-organizare, sunt inspirate din modul în care este organizat cortexul cerebral care, dupa cum este cunoscut, are rolul de a coordona functiile organismului El poate fi asemuit cu o pânza subtire, de întindere relativ mare (aproximativ 0,5 m2 ), pliata astfel încât sa poata ocupa suprafata din interiorul craniului, pe care se realizeaza o proiectie deformata a întregului corp uman Pentru a asigura coordonarea functiilor organismului în scopul asigurarii unitatii functionale a acestuia si al adaptarii la mediu, cortexul sau scoarta cerebrala poseda proprietati topologice/organizatorice remarcabile De exemplu, zona corespunzatoare mâinii se afla lânga zona corespunzatoare bratului si asa mai departe Pornind de la aceste observatii, Kohonen a pus bazele teoriei hartilor de trasaturi cu auto-organizare, care sunt retele neuronale artificiale cu învatare nesupervizata si cu iesiri continue, cunoscute si ca retele neuronale Kohonen Auto-organizarea se defineste ca fiind capacitatea unui sistem de a descoperi si învata structura datelor de intrare chiar si atunci când nu exista informatii referitoare la aceasta structura Fara a i se specifica raspunsul corect pentru fiecare exemplu prezentat la intrare, reteaua neuronala artificiala cu auto-organizare învata singura Cu alte cuvinte, ea descopera trasaturi caracteristice ale datelor de intrare pe care le organizeaza si le memoreaza într-o maniera specifica În acest context, setul sau multimea de antrenare contine numai marimile de intrare si nu perechi de tipul intrare - iesire dorita Informatiile privind trasaturile specifice multimii datelor de antrenare sunt sintetizate în cursul procesului de învatare nesupervizata si sunt memorate în vectorii conexiunilor sinaptice ale caror componente nu mai reprezinta ponderile ci componentele asa numitilor vectori prototip Fiecare neuron al retelei artificiale corespunde unui prototip, iar iesirea defineste relatia dintre intrarea curenta si aceste prototipuri memorate Particularitatea retelelor Kohonen este aceea ca neuronii nu mai sunt asezati pe straturi (de intrare, de iesire si ascuns), ci în nodurile unei plase bidimensionale de dimensiune () (fig 2 16), numita grila suport În aceasta structura exista conexiuni doar între intrarea si fiecare neuron, prin intermediul vectorilor , iar ponderile legaturilor dintre neuroni grilei suport nu au nici o relevanta Fiecare neuron este asociat unei clase, motiv pentru care se utilizeaza si termenul neuron clasa, si este caracterizat de: * vectorul numit vector prototip asociat; * pozitia sa pe grila suport, adica coordonatele si Fig 2 16 Structura unei retele neuronale Kohonen Interactiunea dintre neuroni depinde de distanta dintre acestia Distanta dintre doi neuroni r si s poate fi definita ca fiind distanta euclidiana: (2 59) sau distanta Manhattan: (2 60) La începutul procesului de antrenare al retelei, componentele ale vectorilor prototip sunt initializate aleator urmând a fi adaptate într-o maniera care sa asigure faptul ca neuronii apropiati din punct de vedere topologic, sa fie sensibili la intrari apropiate Astfel, dupa initializarea aleatoare a valorilor ponderilor , retelei i se prezinta la intrare câte un exemplu din multimea de antrenare, care este comparat cu toti vectorii prototip în scopul determinarii neuronului câstigator Acesta este neuronul al carui vector prototip este cel mai apropiat de vectorul prezentat la intrare, adica neuronul care satisface relatia: (2 60) în care (2 61) Dupa ce a fost determinat câstigatorul competitiei, are loc procesul de actualizare a ponderilor În acest sens, se utilizeaza conceptul de vecinatate Vecinatatea unui neuron j, notata este formata din acei neuroni pentru care distanta dintre ei si neuronul j nu depaseste o valoare prestabilita Vecinatatea unui neuron depinde de tipul de distanta utilizata Pentru exemplificare, în figura 2 17 sunt prezentate vecinatatea de dimensiune 2 a unui neuron în situatia utilizarii distantei euclidiene (2 17, a), respectiv a distantei Manhattan (2 17, b) Actualizarea ponderilor se face utilizând relatia: (2 62) unde: este viteza de învatare; - functia de învecinare definita de relatia: (2 63) Pentru a eficientiza procesul de antrenare, valoarea vitezei de învatare si a functiei de învecinare sunt modificate în timp folosind în acest sens relatiile: (2 64) si (2 65) unde Procesul de antrenare se încheie atunci când ponderile atasate tuturor neuronilor nu se mai modifica semnificativ Fig 4 17 Vecinatate de dimensiune 2 în cazul utilizarii: a - distantei euclidiene; b - distantei Manhattan Dupa prezentarea unui numar suficient de vectori de intrare, neuronii clasa din retea vor evidentia grupari de puncte sub forma unor nori sau clustere care partitioneaza spatiul de intrare Cu alte cuvinte reteaua încearca sa proiecteze grila suport în spatiul de intrare astfel încât fiecare vector de antrenare sa fie cât mai apropiat de un prototip, iar grila suport sa fie cât mai putin posibil deformata 1 Stimul - Cuvânt de origine latina ("stimulus") Defineste un factor exterior care determina excitatia (activarea) de scurta durata a unui organ sau a unei functii biologice, care declanseaza un proces fiziologic În contextul retelelor neuronale artificiale prin stimul se va întelege informatia receptionata de catre neuronul artificial (unitatea de procesare) prin una din conexiunile de intrare - - 